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摘要 : 多 核 处 理 器 以 其 
应 用 对 计算 能 力 的 需求 是 无 限 的 ， 随 着 芯片 上 晶体 管 数 目的 进 
! 器 或 者 称 为 众 核 处 理 器 。 多 核 处 理 
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高 性 能 、 低 功 耗 、 设 计 周 期 短 等 诸多 1 


多 核 处 型 

于 多 核 处 理 器 的 芯片 
的 处 理 器 核 ， 而 

各 个 处 天 


! 器 核 的 性 能 也 
这 给 上 层 的 操作 系统 和 软件 优化 带 来 了 负 ] 


不 同 


面积 都 比较 大 ， 生 产 
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存在 差异 。 必 片上 处 理 


行 屏 蔽 ， 提 供 统 


-的 接 
关键 词 : 众 核 处 理 器 ， 片 上 网 络 ， 缺 陷 容 忍 ， 


志 


和 界面 ， 便 


于 编程 开 


蕊 片上 失效 核 的 位 置 和 分 布 也 不 相同 。 男 一 方面 ， 


器 核 的 失效 以 及 性 能 差 导 
昌 。 我 们 借助 虚拟 化 的 思想 ， 
发 和 管理 。 


性 能 碎片 ， 虚 拟 化 


使 得 不 同 世 片 的 底层 结构 各 不 相同 ， 
将 缺陷 和 核 间 性 能 差异 对 软件 层 ; 


CE 势 成 为 未 来 高 性 能 处 理 器 的 发 展 趋势 。 由 于 

- 步 增 多 ， 多 核 处 理 器 将 逐渐 过 渡 到 大 规模 

器 面临 着 很 多 的 设计 挑战 ， 其 中 可 靠 性 问题 尤其 严重 。 一 方面 ， 
-缺陷 导致 的 成 品 率 损失 问题 严重 。 这 使 得 芯片 上 可 能 存在 失效 
1， 工 艺 扰动 问题 使 得 多 核 处 理 器 上 


按照 摩尔 定律 ， 芯 片上 可 以 容纳 的 晶体 管 数目 每 18 个 月 便 会 增加 一 倍 。 处 理 器 设计 师 


们 很 好 地 利用 了 这 些 丰富 的 片上 资源 ， 通 过 
猜测 和 乱 序 执行 技术 等 等 来 提升 微 处 型 


片 的 工作 频率 也 不 
越 来 越 高 ， 芯 片 的 : 
高 单 处 理 器 性 能 ， 


应 用 对 计算 能 力 的 需求 是 无 限 的 ， 如 科学 计算 


器 性 能 。 


体系 结构 的 不 断 创 新 ， 如 精确 的 分 支 预 测 技术 、 


因此 ， 艺 片 三 商 放弃 花费 


于 始 转向 在 蕊 片上 集成 多 个 处 理 器 核 ， 通 过 并 行 计算 提 和 天 
、 天 气 预报 、 基 因 工 程 、 


指令 流水 线 不 断 加 深 ， 并 行 度 不 断 增 加 ， 世 
断 提高 。 然 而 , 传统 的 提高 处 理 器 性 能 的 方法 也 使 得 设计 和 制造 的 复杂 度 


功 耗 越 来 越 大 ， 变 得 不 可 接受 。 高 昂 代 价 继续 提 


处 理 器 性 能 串 。 


网 络 、 多 媒体 等 


等 。 计 算 能 力 的 大 小 直接 决定 了 应 用 可 以 达到 的 规模 和 精度 。 人 芯片 上 唱 体 管 数目 的 不 断 增多 


将 使 得 多 核 处 理 器 (Multi-core processor) 逐渐 过 渡 到 众 核 处理 


敌 〈Many-core processor 


9 


英特尔 在 2006 年 的 开发 者 论坛 上 展示 了 一 款 含有 80 个 简单 处 理 器 核 中 工作 在 3.1GHz 的 芯 


片 原 型 。 根 据 预 测 ， 到 2012 年 这 种 片 - 


需要 安放 在 一 个 房间 

大 规模 多 核 处 理 器 系统 
天 ,通信 已经 成 为 决定 数字 系统 性 能 的 关键 
部 分 时 钟 周期 都 花费 在 线 延迟 而 非 门 延迟 上 。 工 艺 的 进步 


更 快 、 更 便宜 ， 而 与 之 相 比 ， 引 
不 断 增 多 ， 传 统 的 片上 通 
而 另 一 种 系统 级 的 片上 通 
到 广泛 的 关注 汪汪 。 片 上 


通信 分 离 ， 和 总 线 本 


| 。 


脚 和 互 连 线 的 集成 度 发 


的 超级 计算 机 ， 现 在 可 以 集成 在 一 个 ; 
三 部 分 组 成 : 逻辑 、 存 储 和 通信 。 


上 超级 计算 机 的 性 能 可 以 达到 每 秒 万 亿 次 操作 。 以 前 
忆 片 上 了 。 


言 方法 ， 如 共享 总 线 ，! 


网 络 借 鉴 了 计算 机 网 络 和 3 


在 半导体 工艺 如 此 先进 的 今 
因素 。 芯 片 的 大 部 分 功 耗 都 用 来 驱动 互 连 线 ， 大 


全 得 逻辑 部 件 和 存储 器 变 得 更 小 、 


展 却 很 缓慢 。 随 着 计算 和 存储 部 件 的 
于 可 扩展 性 很 差 而 出 现 严重 的 性 能 退化 。 
言 解决 方案 一 “片上 网 络 ”(Network-on-Chip， 简 称 NoC) 开始 得 
行 多 处 理 器 互连网 络 的 技术 ， 将 计算 和 
日 比 具 有 很 好 的 可 扩展 性 ， 而 和 专用 的 互 连 结构 相 比 ， 成 本 更 低 ， 效 率 更 
图 1 所 示 为 基于 片上 网 络 的 多 核 处 理 器 体系 结构 。 
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多 核 处 理 器 的 出 现 给 系统 
设计 人 员 以 及 应 用 程序 开发 人 
员 带 来 了 巨大 的 挑战 。 为 了 能 
不 断 地 提高 处 理 器 性 能 ， 使 其 
与 摩尔 定律 带 来 的 丰富 资源 相 
称 ， 软 件 将 承担 更 多 的 责任 。 
例如 ， 操 作 系 统 、 编 译 器 和 应 
用 软件 需要 显 式 地 管理 片上 处 
理 器 核 ， 开 发 更 多 的 并 行 性 以 
使 得 更 多 的 处 理 器 核 忙 碌 。 其 
中 ， 片 上 处 理 器 核 之 间 的 “ 动 
态 异 构 性 ”将 成 为 未 来 多 核 芒 
片 的 重要 设计 挑战 ， 同 时 也 提 
供 了 更 多 可 以 利用 的 空间 ® 切 。 
所 谓 动态 异 构 性 是 指 片 上 处 理 图 1， 基于 片上 网 络 的 多 核 处 理 器 体系 结构 
~ 器 核 具 有 不 同 的， 而 且 可 能 不 断 变 化 的 性 能 和 特点 (即使 处 理 器 核 被 设计 成 同 构 的 )。 动 态 
让 ~ 异 构 性 主要 来 自 于 可 靠 性 方面 的 挑战 ， 如 永久 性 、 间 其 性 或 瞬时 性 故障 ， 工 艺 扰 动 ， 片 上 功 

耗 和 温度 管理 等 。 这 使 得 软件 所 看 到 的 处 理 器 核 可 能 具有 不 同 的 性 能 (频率 )， 甚 至 软件 可 
© 用 的 处 理 嚣 核 的 数目 也 是 不 断 变化 的 。 例 如 当 处 理 器 核发 生 永久 性 故障 时 , 操作 系统 将 无 法 
一 为 其 分 配 任 务 ， 当 出 现 间 其 性 故障 时 ， 处理 器 核 将 会 在 一 段 时 间 内 处 于 离线 (off-line ) 状态 ， 
CO 无 法 使 用 。 此 外 芯片 上 可 能 会 出 现 局 部 功 耗 过 高 , 或 者 温度 超过 闵 值 ， 片 上 的 动态 功 耗 和 热 
忆 管理 模块 就 会 关闭 某 些 处 理 器 核 ， 以 达到 降低 功 耗 或 降低 温度 的 目的 。 


另 一 方面 ， 软 件 在 使 用 片上 处 理 器 核 的 时 候 ， 需 求 也 是 灵活 多 变 的。 例如 ， 人 金融 安全 方 
面 的 应 用 需要 三 模 或 者 多 模 元 余 来 保证 系统 的 可 靠 性 和 可 用 性 , 而 对 于 网 络 以 及 多 媒体 应 用 
来 说 则 可 以 容忍 更 多 的 故障 ， 从 而 换取 功 耗 上 的 降低 。 多核 处 理 器 必须 同时 支持 这 些 需 求 完 
>< 全 不 同 的 应 用 , 在册 辑 三 模 元 余 (即将 三 个 核 看 作 一 个 逻辑 核 ) 以 及 每 个 核 单独 使 用 之 间 进 
全 行 切换 。 
p= 片上 处 理 器 核 之 间 的 异 构 性 使 得 
G 计算 和 执行 计算 的 物理 硬件 之 间 映 

射 关 系 变 得 复杂 。 这 种 复杂 性 表现 在 


北 


ol 
Cl 
外 殉 E> 


2 
输入 
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虚拟 处 
理 器 核 


在 系统 运行 的 任意 时 刻 , 计算 或 任务 ee 
应 该 如 何 有 效 地 映射 到 硬件 资源 上 。 物理 处 
处 理 这 种 动态 的 异 构 性 并 合理 地 加 理 器 核 


以 利用 需要 详细 地 了 解 底层 每 一 个 

处 理 器 核 的 配置 以 及 状态 , 而 目前 的 a 

大 多 数 系统 和 应 用 软件 是 不 掌握 这 些 细节 信息 的 。 另 一 方面 , 硬件 的 配置 和 计算 能 力 的 变化 
是 非常 迅速 的 。 如 果 操作 系统 跟踪 记录 底层 硬件 的 变化 并 做 出 调度 决定 ， 与 所 要 执行 的 任务 
相 比 ， 其 开销 非常 大 。 因 此 在 多 核 处 理 器 中 ， 利 用 操作 系统 和 应 用 软件 来 处 理 硬件 的 变化 和 
细节 是 不 合适 的 , 硬件 本 身 应 该 更 多 地 承担 这 种 映射 的 任务 ,为 操作 系统 和 应 用 软件 提供 一 
个 清晰 的 界面 ， 减 轻 多 核 处 理 器 系统 软件 和 应 用 软件 的 设计 负担 ， 


图 2 所 示 的 多 核 虚拟 化 技术 , 通过 便 件 或 固件 将 底层 的 硬件 细节 进行 抽象 , 通过 软 硬 件 
接口 (如 指令 集 ) 为 操作 系统 和 程序 员 提 供 数目 固定 的 简单 同 构 的 处 理 器 核 。 这 种 软件 透明 
的 虚拟 化 技术 为 上 层 用 户 提供 了 一 个 简单 清晰 而 且 统一 的 界面 , 从 而 维持 了 已 有 软件 的 兼容 
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性 ， 极 大 地 减轻 了 多 核 软件 设计 人 员 的 负担 。 
下 面 我 们 将 就 集成 电路 设计 中 的 可 靠 性 挑战 , 即 生产 缺陷 导致 处 理 器 核 失 效 ， 以 及 工艺 
偏差 导致 处 理 器 核 性 能 不 对 称 这 两 个 问题 ， 介 绍 多 核 处 理 器 虚拟 化 技术 的 应 用 。 
2 ”多核 处 理 器 虚拟 化 之 拓扑 重 构 技 术 


不 断 细 化 的 半导体 工艺 对 
能 够 正常 工作 的 芯片 所 
产品 成 本 和 利润 的 主要 因 
问题 十 分 严 了 


素 。 对 于 多 核 


E 产 缺陷 (Manufacturing Defects 


) 越 来 越 敏 感 ， 导 致 唱 圆 上 


以 及 众 核 处 理 


只 有 10% 一 20% 。 另 一 方面 ， 
声 等 干扰 ， 导 致 软 错 


J 


噪 


子 


使 月 [ 艺 生产 和 制造 的 芯片 


日 先进 了 


误 (Soft Error) 及 有 瞬时 故障 (Transient Fault)， 芯 片上 也 更 易 发 生 电 


迁移 、 热 载 流 子 退 化 、 栅 氧 击 穿 等 现象 而 导致 永久 故障 (Permanent Fault)， 从 而 大 大 缩 


短 了 芯片 的 平均 无 故障 时 间 ， 严 重 影响 了 蔚 片 的 寿命 和 可 靠 性 。 


为 了 提高 微 处 到 


效 
于 大 规模 多 核 处 ] 


A 


日 ， 


所 
上 失效 的 核 
中 ， 也 开始 采用 核 | 
U 


~ 


在 设计 核 间 
(degradation mode) 〈 或 者 叫 


器 的 成 品 率 , 通常 的 做 法 是 在 微 体 系 结构 中 增加 
的 部 分 吕 ， 如 修改 流水 线 结构 、 为 寄存 器 文件 、 
理 器 , 相 比 为 每 一 个 核 提 供 微 体系 结构 级 元 余 的 做 法 , 核 间 元 余 将 成 为 更 有 
缺陷 容忍 方法 站 。 随 着 芯片 上 集成 的 处 理 器 核 的 数 


缓存 (Cache 


目 不 断 增多 ， 单 核 ; 


占 的 比例 减少 , 即 成 品 率 的 损失 问题 严重 。 而 成 品 率 是 决定 一 款 芯片 
器 来 说 ， 由 于 其 面积 较 大 , 成 品 率 损失 
E。IBM 公司 在 2006 年 的 一 篇 报告 中 指出 中 ， 像 Cell 这 样 的 八 核 芯片 ， 成 品 率 


sr 


于 由 


， 更 易 受 到 宇宙 射线 、 电 源 


G 


元 余 备 份 单元 来 蔡 换 失 
类 增加 元 余 单 元 等 。 对 


和 


和 会 变 得 非常 


占 的 面积 和 整个 必 片 相 比 显得 微不足道 ， 同时， 由 于 缺陷 
只 是 很 少 的 而 ] 
目 匈 余 技术 提高 芯片 的 成 品 率 和 性 能 ， 如 IBM 的 Cell 处 理 
ltraSPARC T1 处 理 器 5 以 及 Azul 的 Vega2 处 理 器 0 等 。 


宛 余 的 多 核 处 理 器 以 及 众 核 处 到 


日 非常 集 此 ， 


FP 的 一 部 分 。 因 


器 时 有 两 种 机 制 ， 分 另 
改 AMAA 模式 (As Many As Available))， 以 及 宛 余 模式 


有 成 簇 分 布 的 特点 ， 
在 工业 界 的 多 核 处 理 器 芯片 
器 、SUN 的 


| 为 降级 模式 


(redundancy mode) (或 者 叫做 AMAD 模式 (As Many As Demand))。 降 级 模式 也 称 为 核 备 


份 , 即 当 一 个 芯片 上 的 某 个 处 到 
例如 生产 一 球 四 核 处 理 器 蕊 片 ， 
果 心 片 


上 有 一 个 
芯片 。 如 果 所 有 的 处 到 


称 之 为 “N+M” 模 式 ， 是 指 为 了 4 
昌 户 提供 N 个 可 月 
那么 芯片 可 以 被 修复 ， 同 时 芯片 上 存在 一 些 没 有 使 用 
级 模式 适用 了 
积 相 对 较 大 ， 为 了 使 得 开销 最 小 ， 应 该 使 有 
是 对 于 大 规模 多 核 处 理 器 来 说 , 由 于 企 片 上 集成 了 大 量 的 处 理 器 核 , 单 核 与 整个 世族 相 比 ， 
表 也 是 可 以 接受 的 。 男 外 ， 由 于 
会 得 到 很 多 的 降级 版 本 , 例如 


见 余 的 处 理 器 核 。 我 们 总 是 为 月 


则 按照 降级 模式 使 用 。 降 
较 少 ， 单 核 占 据 芯片 的 二 
但 


面积 和 成 本 微乎其微 ， 芯 片上 即使 存在 一 些 未 使 月 


芯片 上 的 处 理 器 核 的 数目 众多 ， 


、 两 个 或 者 三 个 处 到 


器 核 失效 后 , 便 从 系统 中 删除 , 只 使 用 所 有 可 用 的 处 到 


当世 片上 无 失效 的 处 理 器 核 时 ， 


E 产 一 款 N 核 处 理 器 芯片 ， 我 1 
的 处 


六 目前 的 多 核 处 理 器 ， 


因为 


的 核 ， 开 名 


里 器 核 。 如 果 失 效 的 核 的 数目 


器 核 。 
就 是 一 个 全 功能 的 芯片 ; 如 


器 核 失效 时 ， 芯 片 将 降级 成 为 一 个 三 核 、 双 核 或 者 单 核 
器 核 都 失效 ， 那 么 芯片 将 被 丢弃 ， 造 成 成 品 率 的 损失 。 宛 余 模 式 ， 又 


门 在 蕊 片上 男 外 多 提供 M 个 


小 于 


F-M, 


的 核 ， 如果 失效 的 核 


的 数目 大 于 M， 
上 处 理 器 核 的 数目 还 比 
晶 所 有 可 用 的 处 理 器 核 。 


已 片 


如 果 采 用 降级 模式 ， 那 么 我 们 


100 核 的 芯片 经 过 降级 后 ， 我 们 可 能 得 到 99 核 、98 核 、97 核 等 等 ， 而 我 们 所 需要 的 100 核 


芯片 的 成 品 率 却 不 能 得 到 保 说 
乱 ， 降 低 月 
该 采用 宛 余 模式 的 核 间 元 余 机 4 
品 率 ， 同 时 


也 不 会 导致 
报告 指 出 入 


游戏 机 将 只 使 月 


昌 户 对 已 片 厂商 的 信心 。 


场 的 混乱 。 这 也 符合 多 核 处 至 
由 于 Cell 处 理 器 (含有 8 个 协 处 理 器 ) 的 成 品 率 较 低 ， 索 尼 的 PlayStation 3 
中 的 7 个 来 提高 产 率 ， 这 


因此 对 于 大 规模 多 核 处 理 


式 实 就 是 “7+1” 横 


FE。 最 后 从 商业 的 角度 看 , 如 此 多 的 降级 版 本 会 使 得 销售 发 生 混 
器 来 说 ， 为 了 提高 其 成 品 率 ， 应 
关 。 宛 余 模 式 为 用 户 透 明 地 提供 所 需要 的 处 理 器 核 , 保证 了 成 
器 虚拟 化 的 基本 思想 。 


IBM 在 它 的 


式 (N=7,M=1)。 


面向 集成 I 


芯片 成品 率 的 提高 是 以 性 能 


原 


到 


保证 ， 但 是 | 


于 芯片 在 


核 与 核 之 
款 9 核 处 
提高 其 成 
超过 3 个 
各 个 忆 乒 
各 个 忆 乒 
理 器 芯片 


口 
口 口 


率 , 我 们 提供 


的 拓扑 结构 与 昌 


的 性 能 降级 。 


)， 那 么 我 们 仍然 可 


构 是 3 


X 


电路 可 靠 性 


的 ， 如 


挑战 的 多 核 处 理 器 虚拟 化 技术 


的 降级 为 代价 的 。 对 于 降级 模式 来 说 ， 导 致 性 能 损失 的 主要 


因 是 处 理 器 核 的 数目 减少 了 。 在 元 余 横 式 下 的 大 规模 多 核 处 理 器 
生产 制造 出 来 之 前 ， 哪 些 核 失效 哪些 
间 的 互 连 拓扑 关系 是 变化 
器 芯片 ， 拓 扑 结 


攻 | 


x 


X 


x x 


尖 
(a) 3x3 的 二 维 网 
状 结构 (目标 ) 


(b)》 实 现 的 结构 


〈 增 加 一 列 元 余 核 ) 


核能 正常 工作 是 未 知 的 ， 因 
3 所 示 。 为 了 方便 说 明 ， 
X3 的 二 维 网 状 (2-DMesh) 结构 ， 如 图 3(a) 所 示 。 为 了 
列 的 元 余 核 作为 备份 , 如 图 3(b) 所 示 。 如 果 片 上 有 失效 核 存在 (不 
以 向 用 户 提供 9 核 芯 片 。 然 而 如 
标 拓扑 结构 (3X3 的 二 维 网 状 ) 不 
的 拓扑 结构 也 各 不 相同 。 这些 被 改变 的 拓扑 结构 变 得 很 不 规整 ， 从 而 导致 了 多 核 处 


虚 


中 ,虽然 计算 能 力 能 够 得 
此 
假设 我 们 要 设计 生产 一 


图 3(c) 所 示 ， 失 效 核 不 仅 使 得 
同 ， 而 且 失 效 核 不 同 所 形成 的 


操作 系统 和 并 行程 序 员 


| 


DE A 
LZRZRT 


拟 拓扑 


《c) 可 能 得 到 的 结 


失效 核 改 变 了 片上 网 络 


由 于 片 
层 的 拓扑 结构 ， 以 便 进 行人 有 


上 通信 的 性 能 极 大 地 


构 
的 拓扑 结构 


JE 
系 21 


自 着 并 行程 序 , 因 


《d) 从 物理 拓扑 映射 到 虚拟 拓扑 
虚拟 拓扑 使 操作 系统 和 程序 员 不 必 考 虑 失效 的 细节 
图 3。， 拓扑 虚拟 化 


E 务 的 分 配 、 


处 理 器 的 底层 拓扑 结构 可 能 各 不 相 
化 ,而 在 一 种 拓扑 结构 上 优化 的 程序 在 另 一 种 结构 上 的 性 能 可 


细节 ， 我 们 可 以 将 底层 的 “ 
样 的 底 


同 ， 


此 操作 系统 和 并 行程 


序 员 都 需要 了 解 底 


调度 以 及 程序 的 优化 5。 然 而 在 元 余 模 式 下 ， 众 核 


EE 
TI 


操作 系统 和 程序 员 


不 管 底层 的 处 


要 针对 各 种 不 同 的 结构 进行 优 
能 很 差 。 为 了 屏蔽 复杂 的 人 硬件 
物理 ”拓扑 结构 虚拟 化 ， 如 图 3(d) 所 示 。 我 们 可 以 屏蔽 掉 各 种 各 
刁 物 理 拓扑 结构 。 上 层 的 操作 系统 和 程序 员 看 到 的 始终 是 一 个 统一 的 拓扑 结 


构 。 同 时 ， 


里 器 核 是 如 何 互 连 如 何 失效 的 , 这 个 拓扑 结构 还 是 和 参考 拓扑 结构 同 构 的 。 这 


种 映射 和 屏蔽 极 大 地 简化 了 操作 系统 对 任务 的 调度 和 分 配 , 同样 程序 员 只 需要 针对 参考 拓扑 


结构 进行 应 用 软件 的 优化 。 


从 本 质 上 讲 N+M 机 种 


上 不 


于 众 核 处 


结构 界面 还 避免 了 销售 市 场 的 混乱 。 
EH 上 述 的 拓 寺 


重 构 都 


用 户 提 供 他 人 
旨 


门 所 需要 的 数目 


一 的 界面 ， 消 除了 混乱 ， 简 化 了 编程 使 用 。 
在 Cray T3E 机 器 中 使 用 过 类 似 的 思想 呈 。 当 系统 运行 时 如 果 有 处 理 


在 为 用 户 提 供 一 个 他 们 所 需要 
N+M 机 制 和 拓扑 重 构 机 制 都 是 将 各 种 各 样 的 底层 细节 屏蔽 掉 ， 让 上 


的 处 


的 拓扑 结构 而 不 管 底层 的 处 


属于 多 核 虚 拟 化 的 
理 器 核 而 不 管 底 层 有 多 少 可 以 工作 


理 器 的 拓扑 结构 需要 提供 给 程序 员 , 这 种 统一 的 拓扑 


思想 


。N+M 机 人 制 旨 在 为 
的 处 理 器 核 ; 拓扑 重 构 则 


里 器 


核 之 间 是 如 何 互 连 的 。 


日 户 始终 面 对 一 个 清晰 统 


可 能 有 一 些 处 理 器 在 物理 


器 发 生 失 效 ， 那 么 


上 就 不 连续 了 。 为 了 向 应 用 提供 一 个 连续 的 则 和 辑 处 理 器 编号 ， 系 统 
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路 由 表 和 风 辑 “who amI” 寄 存 器 允许 节点 进行 逻辑 重 命名 ， 也 就 是 实现 从 物理 节点 到 届 辑 
节点 的 重新 映射 。 这 种 “ 热 交 换 ” 对 用 户 是 完全 透明 的 。 然 而 这 种 热 交 换 和 我 们 的 拓扑 重 构 
是 不 同 的 ， 因 为 对 于 像 Cray T3E 这 种 机 器 来 说 ， 节 点 失效 和 拓扑 改变 是 暂时 的 ， 系 统 可 以 
很 容易 地 通过 重新 加 入 新 的 节点 来 修复 。 而 对 于 众 核 处 理 器 来 说 ,缺陷 造成 的 拓扑 改变 是 永 
入 的 。 
实现 从 物理 拓扑 结构 到 虚拟 拓扑 结构 的 映射 有 很 多 种 方法 。 我 们 可 以 在 芯片 上 增加 一 个 
映射 表 ， 记 录 虚 拟 处 理 器 核 与 物理 处 理 器 核 之 间 的 对 应 关系 。 映 射 表 以 固件 〈firmware) 的 
形式 实现 。 在 对 芯片 进行 测试 之 后 , 就 可 以 确定 芯片 的 物理 拓扑 结构 , 也 就 是 哪些 核 失 效 了 
哪些 核 可 用 。 根 据 一 定 的 重 构 算法 得 到 对 应 的 虚拟 拓扑 结构 , 并 将 这 些 信息 写 入 到 映射 表 中 ， 
如 图 4 所 示 。 


i 


当 操作 系统 进行 任务 分 配 NN HA 
时 ， 比 如 在 虚拟 处 理 器 核 #V 上 NN 


分 配 了 一 个 线程 , 固件 会 根据 映 
射 表 信息 将 该 线程 分 配 到 物理 
处 理 器 核 #2 上 运行 。 当 运行 在 
虚拟 处 理 器 核 #V 和 #VI 上 的 线 
程 之 间 进 行 通信 时 , 固件 根据 映 
射 表 将 通信 双方 的 地 址 映射 到 
物理 处 理 器 核 #2 和 #8。 操 作 系 
统 和 程序 员 都 不 需要 直接 面 对 
各 种 不 同 的 物理 结构 进行 优化 
和 调度 , 他 们 只 需要 针对 参考 拓 
扑 结 构 进 行 优化 , 其 它 的 工作 由 
固件 来 完成 ,这 就 极 大 地 减轻 了 
操作 系统 和 程序 员 的 负担 。 

一 个 物理 拓扑 可 以 映射 出 非常 多 的 虚拟 拓扑 , 因为 我 们 并 没有 限制 物理 拓扑 中 无 故障 的 
处 理 器 核 应 该 放置 在 虚拟 拓扑 的 哪个 位 置 ,例如 对 于 图 4 中 的 物理 拓扑 结构 可 以 映射 得 到 91 
个 可 能 的 虚拟 拓扑 。 由 于 虚拟 拓扑 结构 会 导致 应 用 程序 的 性 能 降级 , 而 一 个 给 定 的 物理 拓扑 
又 能 映射 出 非常 多 的 虚拟 拓扑 , 因此 我 们 需要 从 众多 的 虚拟 拓扑 中 选择 一 个 对 应 用 性 能 影响 
最 小 的 提供 给 用 户 。 虚拟 拓 扑 和 参考 拓扑 相 比 , 性 能 降级 的 主要 原因 是 虚拟 拓扑 在 物理 上 变 
得 不 规整 了 ， 因 而 在 重 构 拓扑 的 时 候 ， 应 该 尽 可 能 地 保证 虚拟 结构 的 规整 性 。 如 图 5 所 示 的 
行 波 列 借 算法 正 是 基于 这 一 原则 ， 以 行 和 列 为 单位 维护 拓扑 的 规整 性 。 


图 4。 拓 扑 虚 拟 化 的 工作 方式 


-62 AAA20 一 
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面向 集成 电路 可 靠 性 挑战 的 多 核 处 理 器 虚拟 化 技术 


3 “多核 处 理 器 虚拟 化 之 核 性 能 碎片 整理 技术 


除了 生产 缺陷 外 , 工艺 偏差 (process variation ) 也 是 当前 芯片 设计 关注 的 一 个 重要 问题 。 
工艺 偏差 包括 系统 级 工艺 偏差 和 随机 偏差 两 类 。 系 统 级 偏差 主要 是 由 于 光 刻 的 析 光 差 ,并 表 
现 为 一 定 的 空间 相关 性 , 也 就 是 两 个 晶体 管 之 间 是 否 存在 工艺 偏差 .只 取决 于 它们 之 间 的 中 
离 。 而 随机 偏差 主要 来 源 于 挫 杂 的 不 均匀 ， 因 此 对 晶体 管 的 影响 是 完全 随机 和 独立 的 ， 也 就 
是 没有 空间 相关 性 中 1。 
文献 [17] 指 出 当 工 艺 特征 尺寸 为 130nm 时 , 系统 级 偏差 和 随机 偏差 对 芯片 的 影响 是 相当 
的 ， 而 随 着 工艺 的 进一步 细 化 ， 随 机 偏差 将 占 主导 地 位 ， 这 也 就 意味 着 世 片 上 的 晶体 管 属性 
的 差异 将 只 存在 很 少 的 空间 相关 性 ,工艺 偏差 对 多 核 处 理 器 的 影响 就 是 导致 核 与 核 之 间 的 性 
能 不 对 称 ， 虽 然 在 设计 阶段 处 理 器 核 具有 相同 的 指令 集 和 组 织 结构 。 文 献 [17] 指 出 工艺 偏差 
使 得 处 理 器 核 之 间 的 频率 差异 能 到 达 20%。 因 此 未 来 的 多 核 处 理 器 将 会 表现 为 下 面 两 个 特 
点 : 1) 不 同 处 理 器 核 的 频率 差异 将 变 大 ; 2) 处理 器 核 的 频率 分 布 也 将 更 加 随机 。 


在 上 一 部 分 中 介绍 的 拓扑 虚拟 化 技术 只 虚拟 拓扑 | 虚拟 拓扑 | 


三 将 被 改变 的 片上 网 络 拓扑 结构 进行 抽象 
< 且 假 设 处 理 器 核 的 性 能 都 是 相同 的 ， 因 此 对 
LO 于 性 能 不 一 致 的 多 核 处 理 器 其 使 用 将 受到 限 
Ee 制 。 我 们 下 面 举例 说 明 。 如 图 6 所 示 ， 假 设 
S 不 同 处 理 器 核 的 性 能 存在 差异 。 第 一 个 虚拟 
拓扑 能 够 保持 较 好 的 核 间 距离 (1 跳 )， 如 果 
我 们 将 中 间 的 两 个 核 进行 交换 ， 那么 一 些 核 ”” 国 高 性 能 核 口 ] 低 性 能 核 
间 的 距离 将 增加 。 但 是 这 样 做 的 好 处 是 所 有 a 
高 性 能 的 处 理 器 核 部位 于 第 一 列 。 由 于 操作 图 6. 考虑 核 性 能 不 对 称 的 多 核 处 理 器 虚拟 化 
系统 在 进行 任务 分 配 和 调度 的 时 候 都 是 基于 “连续 ”的 原则 ， 即 将 任务 分 配 在 连续 的 处 理 器 
核 上 。 当 我 们 为 操作 系统 提供 虚拟 拓扑 工时 ， 则 有 利于 加 速 并 行 度 较 高 的 应 用 程序 。 例 如 ， 
一 个 线程 的 程序 在 第 二 个 虚拟 拓扑 结构 上 可 以 获得 很 好 的 加 速 ， 而 对 于 第 一 个 虚拟 拓扑 来 
说 , 任何 并 行 度 超过 1 的 应 用 都 会 有 性 能 的 损失 , 因为 低 性 能 的 处 理 器 核 将 极 大 地 降低 高 性 
能 处 理 器 核 带 来 的 好 处 。 


© 这 种 现象 和 存储 器 的 碎片 整理 技术 要 解决 的 问题 非常 类 似 。 由 于 操作 系统 按 页 对 存储 器 
进行 分 配 ， 在 分 配 的 过 程 中 可 能 出 现 碎 片 〈fragment)。 这 些 碎片 使 得 存储 器 中 连续 的 存储 
区 域 减少 , 即 操作 系统 可 以 分 配 的 最 大 空间 减少 ， 从 而 增加 了 换 入 换 出 外 围 设 备 如 硬盘 的 次 
数 ， 降 低 了 应 用 的 性 能 。 因 此 在 存储 器 中 ， 经 常 采用 碎片 整理 技术 ， 将 页 碎片 进行 整理 和 压 
缩 ， 从 而 为 操作 系统 提供 一 个 连续 的 较 大 的 可 分 配 的 空间 。 

同样 在 多 核 处 理 器 中 , 由 于 工艺 偏差 导致 处 理 器 核 的 性 能 不 对 称 ， 而 低 性 能 的 处 理 器 核 
会 大 大 降低 高 性 能 处 理 器 核 带 来 的 性 能 提高 , 因此 在 虚拟 化 中 必须 考虑 核 不 对 称 的 情况 。 我 
们 可 以 将 性 能 相近 的 处 理 器 核 成 复 的 分 布 ， 同 时 又 注意 不 至 将 复 内 核 间 的 距离 变 得 非常 远 。 
这 样 虚拟 化 后 的 多 核 处 理 器 ,操作 系统 无 须 改 变 已 有 的 连续 分 配 的 调度 方案 ,而 拥有 较 多 的 
连续 的 高 性 能 处 理 器 核 ， 从 而 支持 并 行 度 较 高 的 应 用 的 加 速 。 如 赂 7(a) 所 示 为 虚拟 化 之 前 的 
多 核 处 理 器 ， 带 有 失效 核 〈 白 色 区 域 )， 核 间 存 在 性 能 差异 《颜色 深 表示 性 能 较 高 ， 颜 色 浅 
表示 性 能 较 差 )。 图 7 人 b) 表 示 虚 拟 化 之 后 的 多 核 处 理 器 ， 结 构 规 则 ， 同 时 性 能 相近 的 处 理 器 
核 集 中 分 布 在 一 起 ， 图 中 表示 为 连续 的 深 色 区 域 ， 当 高 并 行 度 的 任务 分 布 在 这 些 区 域 时 ， 可 
以 获得 较 高 的 性 能 提高 。 
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(a) 虚拟 化 前 的 多 核 处 理 器 。 ”“”〈b) 虚拟 化 后 的 多 核 处 理 器 : 
带 有 失效 核 ， 核 间 性 能 不 对 称 拓扑 虚拟 化 ， 核 性 能 碎片 整理 
图 7， 虚拟 化 前 后 的 多 核 处 理 器 比较 
4 总 结 


多 核 处 理 器 及 众 核 处 理 器 面临 着 严重 的 可 靠 性 设计 挑战 , 其 中 一 个 主要 方面 是 这 些 可 靠 


六 


生 问题 , 如 生产 缺陷 , 工艺 偏差 等 会 导致 多 核 处 理 器 底层 的 结构 与 最 初 的 设计 目标 差异 很 大 ， 


而 且 不 同 蕊 片 会 表现 为 不 同 的 特点 和 属性 。 这 为 多 核 处 理 器 的 系统 软件 及 应 用 软件 设计 人 员 
和 带 来 很 大 的 负担 , 而 从 软件 的 层次 去 适应 这 些 异 构 性 将 会 非常 复杂 , 并 导致 严重 的 性 能 损失 。 
多 核 处 理 器 的 虚拟 化 技术 可 以 有 效 地 解决 这 一 异 构 性 问题 。 通 过 在 硬件 和 固件 层 检测 并 配 


置 , 为 上 层 软件 提供 一 个 清晰 统一 简单 的 界面 极 大 地 减轻 了 系统 软件 的 负担 ， 同 时 使 得 软 


件 上 共有 较 好 的 兼容 性 。 本 文 针 对 两 类 主要 的 可 靠 性 设计 挑战 , 即 生产 缺陷 导致 处 理 器 核 失效 
从 而 改变 核 间 互 连 拓扑 的 问题 ， 以 及 工艺 偏差 导致 处 理 器 核 间 性 能 不 对 称 的 问题 ， 介 绍 了 


多 核 处 理 器 的 虚拟 化 方法 。 虚 拟 化 方法 还 可 以 用 于 解决 如 双 模 /三 模 见 余 以 及 功 耗 管理 等 其 


他 要 求 所 面临 的 多 核 处 理 器 的 异 构 性 问题 。 
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